from urllib.request import Request
from urllib import request
import re
from util import logging_util
sina_news=request.urlopen("https://news.sina.com.cn/").read()
raw_data=sina_news.decode("utf-8","ignore")
logging_util.print_log(str(raw_data))
pat='href="(https://news.sina.com.cn/.*?)"' # pat='href="(https://news.sina.com.cn/.*?)"$>'就无法匹配到,使用'$'时，结尾字符要放在它的前面，但是没事，这个问题先留着吧
filter_data=re.compile(pat).findall(raw_data)
logging_util.print_log(str(filter_data))
for i in range(0,len(filter_data)):
    try:
       print(f"第{i}次爬取")
       request.urlretrieve(filter_data[i],"../thesefiles/新浪新闻/"+str(i)+".html")
       print("------成功-------")
       # request.urlcleanup() 这里不能清除缓存，清除缓存后无法写入文件
    except Exception as e:
        print("------失败-------")
        print(e)
